正文
【生成式 AI】大模型 + 大資料 = 神奇結果?(1/3):大模型的頓悟時刻
[2001.08361] Scaling Laws for Neural Language Models (arxiv.org) 论文指出,模型、数据集越大。
[2206.07682] Emergent Abilities of Large Language Models (arxiv.org):大模型会有顿悟时刻:当模型足够大时,回答问题的准确率会骤增。
可以解释为,只有完全理解某个问题时,才能做对问题。
Calibration(校准)问题:判断语言模型是否理解问题还是只是单纯瞎掰。
[2207.05221] Language Models (Mostly) Know What They Know (arxiv.org):在大模型中,置信度和精确度呈正相关,也就是说语言模型知道自己不知道。
inverse-scaling/prize: A prize for finding tasks that cause large language models to show inverse scaling (github.com):Inverse Scaling Prize 竞赛:提出一个问题,让模型越大精确度反而越低。
然后就搜集到了一堆奇奇怪怪的问题。
[2211.02011] Inverse scaling can become U-shaped (arxiv.org) 认为这些问题之所以对大模型不好使,是因为这些大模型不够大,当模型更大时,又变好使了,呈现出一个 U 型曲线。
这些问题往往都有一点点坑,让一知半解的中模型吃亏。
模型越来越大。
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (jmlr.org):Switch Transformer 甚至达到了 1.6T 个参数。
【生成式 AI】大模型 + 大資料 = 神奇結果?(2/3):到底要多少資料才夠
[2011.04946] When Do You Need Billions of Words of Pretraining Data? (arxiv.org):当数据量足够大时,模型才会学到足够的世界知识(常识)。
Gopher:[2112.11446] Scaling Language Models: Methods, Analysis & Insights from Training Gopher (arxiv.org)
准备数据:
- Content Filtering 使用 Google 对数据进行审查,过滤有害内容
- Text Extraction 去除网页中 HTML 等无关符号
- Qualtiy Filtering 过滤低品质资料
- Repetition Removal、Document Depulication 去除重复资料
- Test-set Filtering 为了实验的严谨,测试集中不应该有训练集的东西(GPT3 有这个失误)
有一段资料重复的特别多。[2107.06499] Deduplicating Training Data Makes Language Models Better (arxiv.org)
在固定运算资源的情况下,对模型和资料进行取舍。
研究表明大资料小模型(学而不思)和小资料大模型(思而不学)都不能达到很好的效果,中间有一个平衡点。
Chinchilla 是一个小模型,但是训练数据集贼多。
在同样算力中,小模型大资料要比大模型小资料效果更好(其实两个模型都很大,一般人的运算资源根本不够)。
[2302.13971] LLaMA: Open and Efficient Foundation Language Models (arxiv.org)
[2210.11416] Scaling Instruction-Finetuned Language Models (arxiv.org)
Instruction-tuning 是一种通过为模型提供任务相关的指令来指导模型学习的方法。这种方法的目的是使模型更好地理解任务的要求,并提高其生成能力和上下文理解能力。
人工介入模型生成的方向。
这张图体现了 RL 和 Human Teaching 的重要性,让小模型比大模型效果更好。
【生成式 AI】大模型 + 大資料 = 神奇結果?(3/3):另闢蹊徑 — KNNLM
通常来说,语言模型在做一个分类问题,即输入为「台湾大」,输出为各个候选词的概率,随后选出概率最高的词即可。
如下所示,Transformer 得到 Text 的 Embedding,随后通过线性层 + softmax 转换为分类问题。
与之对比,KNN LM 在得到 Repesentation 后,不仅训练了一个分类器,还将测试 Text 的 Repesentation 与训练数据得到的 Repesentation 进行距离计算,并根据距离得到下一个词的预测概率,再与原始分类器结合起来,得到最终结果
缺点是速度慢。
另外,KNN LM 可以拿任意资料与测试 Text 的 Representation 计算距离,并不局限于训练数据。因此 KNN LM 这种机制可以使模型训练时更专注于一些难度更高的问题,对于一些仅需记忆的问题则可以通过这种方式解决。
【生成式 AI】GPT-4 來了! GPT-4 這次有什麼神奇的能力呢?
GPT-4 (openai.com) GPT-4 的论文。
这种巨大的模型,都需要巨大的人力物力财力。
然而论文中对 GPT-4 的实现细节甚少。
This report focuses on the capabilities, limitations, and safety properties of GPT-4. GPT-4 is aTransformer-style model 33] pre-trained to predict the next token in a document, using both publiclyavailable data (such as internet data) and data licensed from third-party providers. The model wasthen fine-tuned using Reinforcement Learning from Human Feedback (RLHF) (34]. Given boththe competitive landscape and the safety implications of large-scale models like GPT-4, this reportcontains no further details about the architecture (including model size), hardware, training computedataset construction, training method, or similar.
本报告重点介绍 GPT-4 的能力、局限性和安全属性。GPT-4 是一个 Transformer 风格的模型 33],使用公开的数据(如互联网数据)和第三方供应商授权的数据进行预训练,以预测文档中的下一个标记。然后,使用从人类反馈中强化学习(RLHF)对该模型进行了微调(34)。鉴于像 GPT-4 这样的大规模模型的竞争格局和安全影响,本报告没有包含关于架构(包括模型大小)、硬件、训练计算集构建、训练方法或类似的进一步细节。
GPT-4 据说可以识别图片上的内容,但是这个功能目前无法测试。
ChatGPT 3.5 不会读图片,如果给它一个图片连接,它会乱编。
统计显示,GPT-4 在回答多种问题上要比 GPT 3.5 更为精准。
GPT-4 对算术题的过程更为精准,但还是会算错 orz
GPT-4 可以识别出台罗拼音,GPT 3.5 不可以,但是给个提示之后就可以。
伟哥说他也看不懂台罗拼音 orz
在某些奇怪表达的问题上,GPT-4 表现很好。
如何识别影像?可能的方法:
- 图片简介生成
- OCR 识别
- 将图片编码成特征向量
Image Encoder 相关论文:microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities (github.com)